day21_ML實戰演練：Kaggle

2024 iThome 鐵人賽

DAY 21

AI/ ML & Data

ML/DL-新手選手村系列第 21 篇

16th鐵人賽

fuanhsu1

2024-09-07 06:26:14

213 瀏覽

分享至

[Kaggle(https://www.kaggle.com/）是開放式世界規模的ML資料平台和資料科學社群：
再有了之前學問的理論基礎，到了實際接觸ML的世界，在這裏可以跟世界各地的資料科學家一同切磋資料科學的競賽。
今天我們要介紹的是：
kaggle 著名的資料集
新手如何從kaggle入門
kaggle 的競賽
kaggle 著名的資料集
花朵識別：iris
- 共有：3類花朵 (setosa、versicolor、virginica)
- 下載：iris.data.csv
- 共有5個欄位分別為花瓣長度 sepal length/花瓣寬度 sepal width/花萼長度 petal length/花萼寬度 petal width
鐵達尼號：[titanic] (https://www.kaggle.com/c/titanic)
- 資料集分為：已經幫我們分類成 traini.csv和test.csv
- 資料欄位：生還與否，年齡，性別，倉等級等....
新手如何從kaggle入門：
- 同學可以經由[datasets and tutorial for beginners] (https://www.kaggle.com/code/m2skills/datasets-and-tutorial-kernels-for-beginners)這裡開始，在這裏已經幫大家按照ML演算法分類出來，同學可以自行挑選自己喜歡的資料集，以「鐵達尼號」為經由上方的連結，您可以在搜尋欄位下方的頁籤，ex.Data 就放datasets ，Code就是全世界各地的資料科學家所上傳code，您可以選擇最多投票Most Votes或是最多評論Most Comments的去看。
  - 之前沒有任何程式基礎的：
    - 新手 Visual Studio Code and Python 入門[https://hackmd.io/@smallshawn95/vscode_write_py]，這篇文章還蠻詳細的。
    - iris程式碼範例：

# 載入 pandas 套件
import pandas as pd
# 載入分割 訓練 測試 資料 套件
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# 讀取data
df = pd.read_csv('iris.data.csv')

# 取最後一行資料當target
y = df.iloc[:,-1]

# 取前四行資料當特徵X
X = df.iloc[:,0:4]

# train data 80%，test data 20%

X_train, X_test = train_test_split(X, test_size=0.2, train_size=0.8)
y_train, y_test = train_test_split(y, test_size=0.2, train_size=0.8)


rf = RandomForestClassifier(n_estimators=25, criterion='entropy', max_depth=10)
rf.fit(X_train, y_train)
rf.predict(X_train)
print(rf.score(X_train, y_train))

我們取上面的範例iris datasets 資料檔iris.data.csv，要放在與程式同一層的目錄下，程式檔名為.ipynb為副檔名。
pandas 套件是python做資料處理用的，與numpy齊名。
這裡我們用到之前花了5天介紹的decision tree和random forest的範例程式檔。得出用 randomforest 預測的結果有0.9915966386554622，幾乎百分之一百，應證我們說過randomforest的模型效果屬於優等生。
df是dataframe是二維的arraylike資料，你可以把它想像成矩陣的行與列
iloc是切片slice，iloc[:,-1]，‘,’之前‘：’，表示全取列，後面的-1表示取最後一行。iloc的索引index是從0起算，‘0：3'表示取前四行。
kaggle 的競賽
- 註冊登入帳號之後kaggle，選擇complete，裡面有分初級，中級，進階級。  
- 初級就可以看到titanic